home *** CD-ROM | disk | FTP | other *** search
/ Columbia Kermit / kermit.zip / newsgroups / misc.20000114-20000217 / 000006_news@columbia.edu _Sat Jan 15 16:25:30 2000.msg < prev    next >
Internet Message Format  |  2020-01-01  |  7KB

  1. Return-Path: <news@columbia.edu>
  2. Received: from newsmaster.cc.columbia.edu (newsmaster.cc.columbia.edu [128.59.59.30])
  3.     by watsun.cc.columbia.edu (8.8.5/8.8.5) with ESMTP id QAA25773
  4.     for <kermit.misc@watsun.cc.columbia.edu>; Sat, 15 Jan 2000 16:25:30 -0500 (EST)
  5. Received: (from news@localhost)
  6.     by newsmaster.cc.columbia.edu (8.8.5/8.8.5) id QAA22251
  7.     for kermit.misc@watsun.cc.columbia.edu; Sat, 15 Jan 2000 16:07:29 -0500 (EST)
  8. X-Authentication-Warning: newsmaster.cc.columbia.edu: news set sender to <news> using -f
  9. From: fdc@watsun.cc.columbia.edu (Frank da Cruz)
  10. Subject: Case Study 8: Unicode
  11. Date: 15 Jan 2000 21:07:28 GMT
  12. Organization: Columbia University
  13. Message-ID: <85qnig$ln8$1@newsmaster.cc.columbia.edu>
  14. To: kermit.misc@columbia.edu
  15.  
  16.  
  17. Who doesn't know what Unicode is?  Now that computing has become so
  18. widespread and Web-centric -- a revolution in itself -- we are on the brink
  19. of another major revolution in computing, one that will have profound
  20. effects on all of us and perhaps even on the future course of history.
  21.  
  22. Until now, most computer text has been recorded in single-byte 7-bit or
  23. 8-bit character sets (1), one per language or language group.  For example,
  24. the default character set of the Web is ISO 8859-1 Latin Alphabet 1, which
  25. can encode English plus most West European languages: Italian, Spanish,
  26. German, Icelandic, etc.  But it can't encode East European languages like
  27. Polish, Czech, or Hungarian, even though they use the same alphabet, because
  28. the accents are different.  Nor can it represent languages like Russian,
  29. Arabic, Hebrew, or Japanese that use other writing systems.  Therefore, to
  30. write in languages other than our own we often have to switch character
  31. sets, and as anybody who has tried it can tell you, that's a tricky
  32. business.  And it's even trickier if we need to mix different languages in
  33. the same document; for example, Portuguese, Romanian, Russian, and Armenian.
  34.  
  35. The great promise of the Internet is to bring people in all countries
  36. together as never before.  We can get to know one other and appreciate each
  37. other's languages and cultures with unprecedented convenience.  And the
  38. great lesson of mass computer and Internet culture so far is: for anything
  39. to catch on, it has to be easy.  Coping with the current Babyl of character
  40. sets is anything but easy: different platforms use different private
  41. character sets (such as PC code pages), which must map to any of an array of
  42. standard character sets (such as the ISO Latin alphabets) or to different
  43. private character sets on other platforms.  If languages are to be mixed,
  44. elaborate and often product-specific switching mechanisms are required.
  45.  
  46. Unicode to the rescue.  For more than 10 years, a consortium of corporate,
  47. academic, and standards-body representatives has been working to create a
  48. single universal character set capable of representing all the world's
  49. writing systems.  To find out all about Unicode, visit the Unicode
  50. Consortium website:
  51.  
  52.   http://www.unicode.org/
  53.  
  54. Unicode marks a fundamental change in how we compute.  Each character is
  55. represented not by a single byte (1), but can be one, two, three, four, or
  56. more bytes, depending on the specific Unicode Transformation Format (UTF)
  57. used and the specific characters involved.  But since we have fifty years of
  58. software written for the one-byte-per-character model, the transition to
  59. Unicode will be a long process.  One, however, that is already well underway.
  60.  
  61. A major part of this transition is the creation of Unicode fonts.  The work
  62. is being done piecemeal, with each font containing a (perhaps) different
  63. subset of Unicode, with additional characters and writing systems added over
  64. time.  Your computer might already support Unicode to some extent.  To check,
  65. visit:
  66.  
  67.   http://www.columbia.edu/kermit/utf8.html
  68.  
  69. This is a no-frills plain-text web page containing text in many languages(2)
  70. encoded in Unicode Transformation Format 8 (UTF-8).  You might see a lot of
  71. "unknown glyph" boxes or gibberish, depending on your browser, font, and
  72. locale.
  73.  
  74. Now visit:
  75.  
  76.   http://www.hclrss.demon.co.uk/unicode/fonts.html
  77.  
  78. for a survey of Unicode fonts to see how you might be able to widen the
  79. horizons of your own computer right now.  Try installing an updated font
  80. and visiting the UTF-8 Sample page again.
  81.  
  82. What you see marks a great leap forward: a vendor-neutral, application-
  83. independent method for encoding text in many languages -- and some day, we
  84. hope, all languages.  Unlike other Web pages you might have seen, there
  85. are no tricks here -- for example, no GIFs to represent Chinese or Hebrew.
  86. It's just plain text.  You can select and copy it like any other text, but
  87. whether you can paste it into another application depends on the other
  88. application.  On Windows 95 and later, for example, you can paste it into
  89. Word with a Unicode font such as Arial or Times New Roman selected, and see
  90. several of the non-Roman scripts but not necessarily all of them.
  91.  
  92. The Kermit Project has been a member of the Unicode Consortium for years,
  93. and now C-Kermit 7.0 supports Unicode as transfer character-set, a file
  94. character-set, and a terminal character-set.  All of a sudden you have a
  95. convenient cross-platform tool for migration to Unicode and interfacing
  96. between Unicode and traditional environments.  For example:
  97.  
  98.  . You can make a connection from a traditional environment to a
  99.    a Unicode platform (such as Plan 9) and have Kermit translate
  100.    between your local character-set and Unicode during the terminal
  101.    session.  Or vice versa.  (3)
  102.  
  103.  . You can send traditionally encoded text (say, Italian encoded
  104.    in Latin-1 or Code Page 850) to a Unicode environment, and you
  105.    can import Unicode text to your traditional environment.
  106.  
  107.  . You can convert local files from traditional character sets
  108.    to Unicode, and vice versa.
  109.  
  110.  . You can convert between different Unicode Transformation Formats.
  111.  
  112. C-Kermit's Unicode support is integrated with all its other character-set
  113. support, which covers:
  114.  
  115.  . English and West European (Latin-1) languages.
  116.  . East European Roman-Alphabet (Latin-2) languages.
  117.  . Russian, Ukrainian, and other languages written in Cyrillic.
  118.  . Greek.
  119.  . Hebrew.
  120.  . Japanese.
  121.  
  122. Others can, and no doubt will, be added in the future.  All of this and more
  123. will be included in the forthcoming releases of Kermit 95.  Most of what you
  124. see on the UTF-8 Sample Page, you will also be able to see on your Kermit 95
  125. screen; it's "just" a matter of having the right font (4).
  126.  
  127. As usual, I've rambled on longer than planned and still only scratched the
  128. surface.  For greater detail, read Section 6.6 of the ckermit2.txt file.
  129.  
  130. Notes:
  131.  
  132.  (1) Oversimplification.  Traditional East Asian character sets, among
  133.      others, use various multibyte encodings.
  134.  
  135.  (2) If you can add languages to this page, please let me know.
  136.  
  137.  (3) To learn about Unicode support in Linux, visit
  138.  
  139.  (4) A GUI window is required in Windows 95 and 98, but not in Windows NT
  140.      or 2000.
  141.  
  142. - Frank